1
Confrontation des paradigmes d'utilisation des données : le spectre d'étiquetage
EvoClass-AI003Cours 10
00:00

Confrontation des paradigmes d'utilisation des données : le spectre d'étiquetage

Le succès du déploiement des modèles d'apprentissage automatique dépend essentiellement de la disponibilité, de la qualité et du coût des données étiquetées. Dans les environnements où l'annotation humaine est coûteuse, impossible ou très spécialisée, les paradigmes standards deviennent inefficaces ou échouent complètement. Nous introduisons le spectre d'étiquetage, qui distingue trois approches fondamentales selon la manière dont elles exploitent l'information : Apprentissage supervisé (AS), Apprentissage non supervisé (ANS), et Apprentissage semi-supervisé (ASS).

1. Apprentissage supervisé (AS) : haute fidélité, coût élevé

L'AS fonctionne sur des jeux de données où chaque entrée $X$ est explicitement associée à une étiquette connue, $Y$. Bien que cette méthode atteigne généralement la meilleure précision prédictive pour les tâches de classification ou de régression, son importance sur un étiquetage dense et de haute qualité est très exigeante en ressources. La performance décline fortement si les exemples étiquetés sont rares, rendant ce paradigme fragile et souvent économiquement insoutenable pour des jeux de données massifs et évolutifs.

2. Apprentissage non supervisé (ANS) : découverte de structures latentes

L'ANS opère exclusivement sur des données non étiquetées, $D = \{X_1, X_2, ..., X_n\}$. Son objectif est d'inférer des structures intrinsèques, des distributions de probabilité sous-jacentes, des densités ou des représentations significatives au sein du manifolde de données. Ses applications clés incluent le regroupement (clustering), l'apprentissage de variétés (manifold learning) et l'apprentissage de représentations. L'ANS est particulièrement efficace pour le prétraitement et l'ingénierie de caractéristiques, fournissant des aperçus précieux sans dépendre de l'entrée humaine externe.

Question 1
Quel paradigme d'apprentissage est spécifiquement conçu pour réduire la dépendance élevée à l'annotation humaine coûteuse en utilisant des données non étiquetées abondantes ?
Apprentissage supervisé
Apprentissage non supervisé
Apprentissage semi-supervisé
Apprentissage par renforcement
Question 2
Si la tâche principale d'un modèle est la réduction de dimensionnalité (par exemple, trouver les composantes principales) ou le regroupement, quel paradigme est universellement utilisé ?
Apprentissage supervisé
Apprentissage semi-supervisé
Apprentissage non supervisé
Apprentissage par transfert
Défi : définir l'objectif de l'ASS
Conceptualisation de la fonction de perte combinée
Contrairement à l'AS, qui s'optimise uniquement sur la fidélité des étiquettes, l'ASS nécessite une stratégie d'optimisation équilibrée. La perte totale doit capter la précision des prédictions sur l'ensemble étiqueté tout en imposant une cohérence (par exemple, lisibilité ou séparation faible en densité) sur l'ensemble non étiqueté.

Étant donné : $D_L$ : Données étiquetées. $D_U$ : Données non étiquetées. $\mathcal{L}_{SL}$ : Fonction de perte supervisée. $\mathcal{L}_{Consistency}$ : Perte imposant une lisibilité des prédictions sur $D_U$.
Étape 1
Écrivez la forme générale de l'objectif d'optimisation totale $\mathcal{L}_{SSL}$, en intégrant un coefficient de pondération $\lambda$ pour la composante de cohérence non étiquetée.
Solution :
La forme conceptuelle de la perte totale ASS est une somme pondérée des deux composantes : $\mathcal{L}_{SSL} = \mathcal{L}_{SL}(D_L) + \lambda \cdot \mathcal{L}_{Consistency}(D_U)$. Le scalaire $\lambda$ contrôle le compromis entre la fidélité aux étiquettes et la dépendance à la structure.